Telegram Group & Telegram Channel
📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6425
Create:
Last Update:

📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6425

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.

A Telegram spokesman declined to comment on the bond issue or the amount of the debt the company has due. The spokesman said Telegram’s equipment and bandwidth costs are growing because it has consistently posted more than 40% year-to-year growth in users.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from ye


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA